摘要。凝视估计模型概括的能力受到与凝视无关的各种因素的限制,尤其是当训练数据集受到限制时。当前的策略旨在通过不同的领域概括技术来应对这一挑战,但是由于仅依靠价值标签进行回归的风险,它们的成功有限。预训练的视觉模型的最新进展使我们促使我们利用可用的大量语义信息。我们提出了一种新颖的方法,将目光估计任务重新构架为视觉对准问题。我们所提出的框架,名为语言引导的凝视估计(LG DAIM),从富有的视觉模型的先前知识中学习了连续和几何敏感的特征,从而获得了凝视估计的益处。具体来说,LG凝视通过我们提出的多模式对比回归损失将视线特征与连续的linguistic特征相结合,该损失可定制不同负面样品的自适应重量。此外,为了更好地适应凝视估计任务的标签,我们提出了一种几何学意识到的插值方法,以获取更精确的凝视嵌入。通过广泛的实验,我们在四个不同的跨域评估任务中验证了框架的效果。
主要关键词
![arxiv:2411.08606v1 [cs.cv] 2024年11月13日PDF文件第1页](/bimg/6/6fb818b7f620b7d826442ac19bce2a64c539a3ec.webp)
![arxiv:2411.08606v1 [cs.cv] 2024年11月13日PDF文件第2页](/bimg/f/f982b1b71c70336eee5aaf9a83506bb7ad709b4c.webp)
![arxiv:2411.08606v1 [cs.cv] 2024年11月13日PDF文件第3页](/bimg/6/6e10bfb1d2bf0cd869105e393ad1a4345c4db1a5.webp)
![arxiv:2411.08606v1 [cs.cv] 2024年11月13日PDF文件第4页](/bimg/b/b0679b534c46be4471858eec2c11bc5a58e8e3fe.webp)
![arxiv:2411.08606v1 [cs.cv] 2024年11月13日PDF文件第5页](/bimg/7/7a6c0c3acf7496bdb5e23e4c4258fe55c1c5a228.webp)
